Hacia el razonamiento para modelos fundamentales de EDP: un algoritmo de escalamiento en tiempo de inferencia impulsado por modelos de recompensa Optimización de razonamiento para modelos fundamentales de EDP 2026-01-26 · 2 min